max rank | avg. rank | sentence |
---|---|---|
547 | 253.3333 | Na prvenstvu Jugoslavije 1. mjesto osvojio je 12 puta. |
587 | 276.4444 | Danas se koristi u preko 50 zemalja širom svijeta. |
614 | 181.1111 | Ovaj naziv se koristi još od kraja 15. vijeka. |
654 | 165.5000 | Prije toga su bili zajedno preko 4 godine. |
675 | 199.3000 | Po njemu je sve relativno, kako prostor, tako i vrijeme. |
689 | 223.4444 | Kad je imao dvije godine, umro mu je otac. |
744 | 216.0000 | Napomena: Do 1910. iskazivano kao dio naselja. |
782 | 270.0000 | U isto vrijeme je bilo problema kod kuće. |
787 | 253.2500 | Za samo nekoliko sezona dolazi do prve lige. |
801 | 327.8889 | Ako jeste, onda nije, a ako nije, onda jeste. |
841 | 366.6667 | Do sada je objavio niz knjiga iz tih oblasti. |
909 | 370.5556 | Svaki od ovih dijelova sastoji se od više dijelova. |
927 | 230.2222 | Kada mu je bilo 10 godina izgubio je oca. |
978 | 262.4286 | U grupi 2 bilo je četiri reprezentacija. |
1019 | 380.7500 | To je, vjerovatno, i najveća vrijednost ovog albuma. |
1030 | 300.1250 | Od 1910. do 1981. iskazivano kao dio naselja. |
1043 | 399.4444 | U 1900., 1910. i 1948. iskazivano pod imenom Sv. |
1044 | 297.2308 | On je također i jedini lik koji se pojavljuje u svih sedam knjiga. |
1064 | 421.7500 | Taj slučaj pojavljuje se kod još malo država. |
1091 | 417.8889 | Nije poznato kada je rođen niti kada je umro. |
1091 | 273.2500 | Nije poznato na koji način je dobio ime. |
1092 | 306.5833 | Ovaj sistem se sastoji od četiri reakcije i pet različitih vrsta molekula. |
1113 | 384.3077 | U 17. i početkom 18. vijeka postala je jedna od velikih sila Evrope. |
1114 | 309.5556 | U Bosni i Hercegovini postoji veliki broj radio stanica. |
1128 | 256.8750 | Međutim, to mu nije bilo dovoljno za pobjedu. |
1138 | 453.0000 | Smatra se jednom od najboljih pjesma svih vremena. |
1138 | 410.7500 | Smatra se jednom od najboljih utakmica u historiji. |
1139 | 441.1429 | U 2016. godini naselje nije imalo stanovnika. |
1140 | 371.6667 | Od 15. stoljeća sve više se počinje koristiti njemački. |
1148 | 374.6667 | Ali, svijet oko njega se ne mijenja tako brzo i tako lahko. |
The maximum word rank of a sentence is by definition the rank of the rarest word in the sentence. If it is low, all words in the sentence are of high frequency. For this reason the table of the sentences with least maximum word number might be of interest. In the table, we see the corresponding sentences with a minimum length of 40 characters.
The over all distribution of the maximum rank in all sentences of the corpus is shown in a diagram with log-scaled x-axis.
The sentences in the table described above are of interest because they are usually easy to understand. The distribution may give insights into the corpus and may give parameters for language comparison.
While the distribution might be deduced from a small corpus, the sentences in the table are rare and a large corpus will give more impressive results.
Table data:
select max(w_id)-100 as m, avg(w_id)-100 as a, s.sentence from sentences s, inv_w i where s.s_id=i.s_id and length(sentence)>40 and i.w_id>100 group by s.s_id order by m limit 30;
Distribution data;
select m, count(*) from (select 100* round((max(w_id)-100)/100) as m from sentences s, inv_w i where s.s_id=i.s_id and i.w_id>100 group by s.s_id) aa group by m;
Explain the distribution, especially the increase in its right part.
4.5.2.2 Average word rank in sentence
4.5.2.3 Sentences consisting of many low frequency words I
4.5.2.4 Sentences consisting of many low frequency words II
4.5.2.5 Sentences consisting of short words only I
4.5.2.6 Sentences consisting of short words only II
4.5.2.7 Sentences consisting of long words only I
4.5.2.8 Sentences consisting of long words only II